浙江大学CSPS最佳论文:使用卷积神经网络的多普勒雷达手势识别
编译人员:路雪、刘晓坤、李泽南
论文来源:https://arxiv.org/abs/1711.02254
浙江大学 Jiajun Zhang、Jinkun Tao、史治国提交的论文提出了使用多普勒雷达采集数据,使用多层卷积神经网络进行处理的手势识别新方式,获得了 International Conference on Communications, Signal Processing, and Systems 2017 大会的最佳论文。
手势识别作为一种人机交互方式,一直是计算机科学领域的主要研究课题之一。这一技术使得计算机无需借助传统的交互硬件(比如鼠标和键盘)即可理解人类指示。传统手势识别系统主要基于摄像头和图像处理算法 [1]。尽管基于摄像头的手势识别系统提供了可靠的识别率,但它们存在局限性,最明显的一个是易受光的亮度的影响 [2]。此外,当处理器和电池资源有限时,对计算和能耗的高需求将限制其应用。而且,基于摄像头的识别系统本质上可能在公共使用中引起隐私问题。
近期,基于雷达的手势识别引起了公众的兴趣。与传统方法相比,基于雷达的手势识别具备独有的优势。首先,摄像头在昏暗的光下很难捕捉到清晰图像,而雷达信号不受影响,可以在黑暗的环境中广泛使用。第二,连续波多普勒雷达传感器检测时频信号散播的移动物体多普勒效应,这可以通过成本低廉的架构来实现。即人类手势引起的多普勒相位频率改变仅限于几赫兹,模数转换器(ADC)的价格和基带设备的成本较低。因此,基于雷达的手势系统在实际应用中具备显著优势。
然而,目前手势识别方向上的大多数研究都是基于摄像头的,使用雷达的研究非常少。一些研究使用频率为 Band E 或 WLAN 的雷达进行识别。一些研究人员使用单站雷达在 E-band 频率上测量人的手势,其频率范围在 60GHz 到 90GHz 之间。但是对于日常使用而言,这一频段过于昂贵。在另一些论文中,研究人员使用 Wi-Fi 信号在居家环境中识别人的手势,因为 Wi-Fi 信号可以穿墙,所以这样的系统可以使用很少的发射源覆盖整个屋子。但是,目前人们的日常生活中使用 Wi-Fi 技术的路由器非常多,2.4GHz 的 Wi-Fi 频段已经非常拥挤了。
另一方面,近年来出现几项使用微波雷达检测人类跌倒(一种身体姿势)的研究。[9]–[11 展示了一些有代表性的研究。对一般动作中的高精度跌倒检测由计算机中的 ZigBee(无线传感器网络)模块完成。此外,[10] 设计和测试了一种相干调频连续波(FMCW)雷达传感器,用于在家中和医院里的长期无线跌倒检测。通过分析对象运动过程中的逆合成孔径雷达(ISAR)图像中的雷达散射截面(RCS)、范围和多普勒频移,可以从一般动作(比如坐)中分辨出跌倒。此外,有些研究者同时使用了视频和超宽谱雷达进行研究 [11]。他们使用隐马尔科夫模型从接收的信号中提取特征以识别动作类型。然而,手势识别和跌倒检测的区别在于,手势识别需要更细粒度的信号处理。
在这篇论文中,研究者提出了一种基于多普勒雷达、使用卷积神经网络(CNN)的手势识别系统。和其它专注于对不同手势的接收雷达信号建模的研究不同,他们的方法专注于基于样本数据集构建雷达信号和手势的关系。具体来说,他们选用的多普勒雷达有频率为 5.8GHz 的双信道,用于获取四种标准常用手势的大量数据样本;然后使用短时傅里叶变换和连续小波变换作为两种主要的时频分析方法,对接收到的信号进行分析;最后,使用卷积神经网络对时频分析结果进行分类。此外,他们还讨论了以下两个因素对手势识别准确率的影响:手势和传感器之间的距离,手势的尺度(scale of gesture)。结果显示,手势和传感器之间的距离变大时,准确率略有下降但仍保持高水平。而手势的尺度几乎不会对准确率产生影响。然而,卷积神经网络的本质属性表明,要想对不同人的手势识别达到更高的准确率,则需要更多样本。结果表明,这篇论文提出的基于多普勒雷达和卷积神经网络的手势识别系统可以对特定手势达到非常高的识别准确率。
图 1. 硬件原型
图 2. 硬件结构
图 5. 四个标准手势:(a)圆;(b)方;(c)对号;(d)叉号
图 7. 使用 STFT 的时频分析。(a)圆;(b)方;(c)对号;(d)叉号
图 9. 卷积神经网络架构示意图(共 10 层)
图 13. 不同手势尺度情况下,训练集与测试集上的分类准确度和损失:(a)r = 0.2;(b)r = 0.5(单位为米);实验中使用的是如图 9 所示的卷积神经网络架构,使用 50 个随机选择的训练集和测试集。
论文:Doppler-Radar Based Hand Gesture Recognition System Using Convolutional Neural Networks
论文链接:https://arxiv.org/abs/1711.02254
手势识别一直是人机交互方面的热门方向之一。传统基于摄像头的手势识别系统很难在黑暗环境中使用。在这篇论文中,我们提出了基于多普勒雷达,使用卷积神经网络的手势识别系统。我们使用相对经济的双信道 5.8GHz 多普勒雷达传感器获取四个标准手势的大型数据集。然后对接收到的手势信号进行时频分析,我们使用卷积神经网络来对手势进行分类。实验结果证明了该系统的有效性,准确率为 98%。此外,我们还研究了识别距离和手势尺度等相关因素。
文中所涉引注如下:
[1] E. Hjelmas and B. K. Low, “Face detection: A survey,” ˚ Computer vision and image understanding, vol. 83, no. 3, pp. 236–274, 2001.
[2] W. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld, “Face recognition: A literature survey,” ACM computing surveys (CSUR), vol. 35, no. 4, pp. 399–458, 2003.
[9] M. Mercuri, P. J. Soh, G. Pandey, P. Karsmakers, G. A. Vandenbosch, P. Leroux, and D. Schreurs, “Analysis of an indoor biomedical radarbased system for health monitoring,” IEEE Transactions on Microwave Theory and Techniques, vol. 61, no. 5, pp. 2061–2068, 2013.
[10] Z. Peng, J.-M. Munoz-Ferreras, R. Gomez-Garcıa, and C. Li, “Fmcw radar fall detection based on isar processing utilizing the properties of rcs, range, and doppler,” in Microwave Symposium (IMS), 2016 IEEE MTT-S International. IEEE, 2016, pp. 1–3.
[11] Z. Zhou, J. Zhang, and Y. D. Zhang, “Ultra-wideband radar and vision based human motion classification for assisted living,” in Sensor Array and Multichannel Signal Processing Workshop (SAM), 2016 IEEE. IEEE, 2016, pp. 1–5.
*推荐文章*
MIT与FAIR提出「mixup」,利用数据和标签的随机线性插值提高神经网络的健壮性
*注*:如有想加入极市专业CV开发者微信群(项目需求+分享),请填写申请表(链接:http://cn.mikecrm.com/wcotd9)申请入群